大语言模型LLMs技术精粹，GPT-1架构全解析：九层之台起于累土——且看AI江湖之起高楼

Original 走向未来走向未来 2023-08-31

收录于合集

本文是《迈向AGI：从效率革命到思维革命》系列文章中的一篇，此系列已发布的文章包括：

1. 迈向AGI 的观察

昨天（2月25日）美国财富（Fortune）网站发布了一个报道[1]，提到ChatGPT 在美国企业应用的调研情况。其调研数据的来源是Resumebuilder.com，这是一家提供简历创建、维护、写作指导、求职信撰写等服务的在线平台。凭借其强大的功能、直观的界面和专业指导，该平台是欧美各行业不同级别的求职者的首选平台和工具，已有十多年的历史。但即便如此，如果说，该报告是由Resumebuilder发布的话，可能声响不大。但通过财富网站（就是发布财富500强的那个，很有影响力的媒体）以一个震撼的标题《Some companies are already replacing workers with ChatGPT, despite warnings it shouldn’t be relied on for ‘anything important’》发布出来，感觉就震撼了。而且，文章中有一句话写的特别好，就是“无论公司使用 ChatGPT 和其他 AI 工具的终点在哪里，它肯定不在眼前。（Wherever the end is for companies' usage of ChatGPT and other A.I. tools is, it's certainly not in sight.）”。下面是报道的简要内容：

本月（2月）早些时候，工作建议平台Resumebuilder.com对 1,000 名使用或计划使用 ChatGPT 的商业领袖进行了调查。结果发现，近一半的公司已经实施了聊天机器人。大约一半的人表示，ChatGPT 已经取代了他们公司的员工。
已经使用 ChatGPT 的企业领导者告诉 ResumeBuilders.com，他们的公司已经使用 ChatGPT 的原因有很多，包括 66% 用于编写代码、58% 用于文案和内容创建、57% 用于客户支持以及 52% 用于会议摘要和其他文件。
在招聘过程中，77% 使用 ChatGPT 的公司表示他们用它来帮助撰写职位描述，66% 用来起草面试申请，65% 用来回复申请。
总的来说，大多数商业领袖都对 ChatGPT 的工作印象深刻，”ResumeBuilder.com 在新闻稿中写道。“55% 的人表示 ChatGPT 的工作质量‘非常好’，而 34% 的人表示‘非常好’。”
几乎所有使用 ChatGPT 的公司都表示他们使用该工具节省了资金，48% 的公司表示他们节省了超过 50,000 美元，11% 的公司表示他们节省了超过 100,000 美元
在 ResumeBuilder.com 认定为使用聊天机器人的企业中，93% 表示他们计划扩大对 ChatGPT 的使用，90% 的高管表示 ChatGPT 体验对求职者有益——如果它还没有取代他们的工作的话。

2. GPT-1模型架构概览

GPT-1正式称呼是GPT，但因为有后续的 GPT-2，GPT-3，GPT-3.5等，GPT 本身也被称为GPT-1。GPT，即生成预训练变换器网络（Generative Pre-trained Transformer），是一种深度学习模型，在大量数据上进行训练，后能够生成类似于人类语言的语言、回答问题等[2]。GPT 系列架构大体上类似，也可以说是目前最火热的 ChatGPT 的基础。后面会专文介绍从 GPT-1到GPT-3的架构变化情况。而 ChatGPT所使用的网络架构正是GPT-3。

GPT模型是由变换器网络的解码器堆叠而成。其架构图如图1所示。

图1 GPT-1的网络架构

GPT模型的主要优点是其生成高质量语言的能力。与依赖于预定义规则和启发式方法的传统语言模型不同，GPT模型经过大量数据训练，可以从真实世界的语言使用模式中学习。这意味着GPT模型可以生成比传统模型更准确、更自然的语言。同时，GPT 在设计之初就考虑到多任务的应用。在论文中就广泛应用于分类、问答、语义相似度等。

在当时来说，GPT模型的主要缺点是其计算要求较高，需要大量数据和处理能力的深度学习模型，训练和部署成本昂贵。并且由于 GPT-1并未展现出超越传统方法很多的效果，在 BERT 出来之后，就立即被盖过风头，并一直持续到 ChatGPT出现。也就是说，在 ChatGPT展现出其超强能力之前，业内用的更多的还是 BERT 系列更多，也就是说，以变换器网络编码器结合掩码语言模型（Masked Language Model，MLM）在绝大多数场景下其效果更好。

3. 无监督预训练

给定一个无监督的词元语料库，使用自回归语言模型的最大似然目标函数：

这里的是上下文滑窗的大小，是条件概率，由具有参数的神经网络建模。这些参数使用随机梯度下降进行训练。其中神经网络用的是原始变换器网络的变种堆叠而成。该模型对输入的上下文词元序列应用多头自注意力操作，然后通过逐位置的前馈层产生目标词元的输出分布。计算公式如下：

嵌入层，计算公式如下，其示例如图2所示，由词元嵌入和位置嵌入相加而成。

图2 嵌入层示例

堆叠的层变换器网络，网络示意图如图3所示

图3 多层变换器网络堆叠

输出层，预测下一个词元

其中，输入的是

个词元组成的上下文词序列

4. 有监督的微调

在无监督的训练之上，针对特定的有监督任务进行微调训练。训练针对标注数据集来说，输入词元序列，从上述模型中获得最顶层的变换成网络层的输出，然后将其喂到增加的线性层（参数为）来预测值，即：

由此，目标损失函数为：

在微调中，将语言建模作为微调的辅助目标有助于训练出更好的模型，因为：

提高监督模型的泛化能力
加速收敛

由此，在微调中，使用了如下的损失函数，其中为控制因子：

在微调任务中，对于一些任务，如文本分类，我们可以按照上述方法直接对模型进行微调。而对于某些其他任务，如问答（question answering）或文本蕴含（textual entailment），输入是结构化的，例如有序的句子对或文档、问题和答案的三元组。由于我们的预训练模型是在连续文本序列上训练的，因此我们需要对其进行一些修改才能将其应用于这些任务。在 GPT-1中用遍历式的方法，将结构化输入转换为有序序列，这样预训练的 GPT模型就能够很好地处理了。不同任务的情况见图4所示，对每个任务的输入都加上了随机初始化的开始和结束标记（⟨s⟩，⟨e⟩）。

图4 微调任务的处理情况

文本蕴含（Textual entailment）：对于蕴含任务，将前提p和假设h的词元序列连接起来，中间用分隔符词元($)隔开。
相似性判断（Similarity）：对于相似性任务，被比较的两个句子没有固定的顺序。为了反映这一点，将包含两种可能的句子排序（中间用分隔符隔开）组成两个不同输入序列，通过变换器网络生成两个序列表示，再在输入到线性输出层之前进行逐元素相加。
问答（Question Answering）和常识推理（Commonsense Reasoning）：这些任务可以描述为一个上下文文档、问题和一组可能的答案{}，用分隔符词元将文档上下文和问题与每个可能的答案连接起来，得到。模型分别处理每个序列，然后通过softmax层进行归一化，生成可能答案的输出分布。

5. 编码实现

下一篇文章将编码实现、梳理GPT-1所使用的训练语料，复现一个 GPT-1模型。同时，也会根据中文的对联语料，训练一个对联 GPT，来生成对联。

6. 以人为本 AGI

“以人为本AGI” 就是以人类为中心的通用人工智能，也就是说人工智能是以服务人类为目的的，有名的“机器人三定律”说的也是这个。最近在硅谷，针对人工智能发展过程中要保持以人为本的讨论越来越多，这也说明了AI 的进一步发展，如果没有对齐人类核心价值观，出现负面的情况的几率在加大。从另一个角度，也说明了业内顶尖专家认为， AGI 到来的时刻并不遥远了。

这个定义在前面几篇文章中重复了好几次了，最近又将其简化为“人本AGI” 或“人本智能体”。这个定义与最近（2月24日） OpenAI在其官网发布的《Planning for AGI and beyond》中的精神极为一致，比如“吾辈欲以人工智能为使，推动人类极致繁荣于宇宙之中（We want AGI to empower humanity to maximally flourish in the universe）”等。进而，“人本AGI”的公式为：

神经网络大模型 ⊕ 知识图谱 ⊕ 强化学习=人本AGI

其中，⊕表示了某种组合/融合的方法，并且：

神经网络大模型：连接主义发展至今的代表性成果，随着 AGI 的发展，大语言模型未必会是最终形态，比如多模态跨模态的神经网络大模型；对这个有兴趣的，建议学习花书《深度学习》深入了解其技术原理[3]。另外，最近也出现了扩散模型+RLHF 的情况，也进一步说明了，上述人本 AGI 不仅仅适用于语言模型，更是适用于人类各种感觉、思维以及行动有关的。
知识图谱 ：符号主义发展至今的代表性成果，随着 AGI 的发展，知识图谱本身也需要不断发展，目前这种知识图谱未必是最终形态，比如拥有更强表达能力、知识计算的计算、推理和规划能力的知识图谱；对知识图谱有兴趣的，建议学习珠峰书《知识图谱：认知智能理论与实战》深入了解知识图谱的构建、存储、规划和推理等技术原理[4]。知识图谱是目前用以解决 AGI 有关事实性问题的核心技术。关于解决事实性的问题是迫在眉睫的，著名的马斯克也是这么说的。
强化学习：行为主义发展至今的代表性成果，随着 AGI 的发展，强化学习本身也会不断发展，PPO 未必是最佳的形式。对强化学习有兴趣的，建议学习《强化学习（第2版）》深入了解强化学习的技术原理[5]。

人工智能发展至今，已经出现了能够将神经网络大模型、知识图谱、强化学习三者融合的系统（产品），而这已经隐隐散发出一点 AGI 的曙光，或称之为婴儿期的AGI，或称之为 AGI 的幼芽。未来，通用人工智能的进一步发展，必将使得曙光上升为朝阳，婴儿茁壮成长成青壮年，幼芽长成参天大树。那时，人本 AGI不仅仅为人类带来效率革命，或将为人类来带来思维革命。这种变革可能从改造自然到改造自身，其影响深远程度可能远超此前所有三次工业革命的总和。也许，我们的后辈的形态，也是我们现在所无法想象的。

7. 参考文献

[1]Some companies are already replacing workers with ChatGPT, despite warnings it shouldn’t be relied on for ‘anything important’. Fortune. https://fortune.com/2023/02/25/companies-replacing-workers-chatgpt-ai/. 2023.

[2]Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever. Improving Language Understanding by Generative Pre-Training. https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf. 2018.

[3]Ian Goodfellow、Yoshua Bengio and Aaron Courville. 深度学习[M] //人民邮电出版社. 2017.

[4]王文广. 知识图谱：认知智能理论与实战[M] //电子工业出版社. 2022.

[5]RichardS.Sutton, AndrewG.Barto. 强化学习（第2版）[M] //电子工业出版社. 2019.

进一步阅读

最后，题图是利用了ControlNet 生成的，ControlNet的出现使得生成图像的可用性又提升了很多。

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

大语言模型LLMs技术精粹，GPT-1架构全解析：九层之台起于累土——且看AI江湖之起高楼

1. 迈向AGI 的观察

2. GPT-1模型架构概览

3. 无监督预训练

4. 有监督的微调

5. 编码实现

6. 以人为本 AGI

7. 参考文献

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

生成图片，分享到微信朋友圈

大语言模型LLMs技术精粹，GPT-1架构全解析：九层之台起于累土——且看AI江湖之起高楼

1. 迈向AGI 的观察

2. GPT-1模型架构概览

3. 无监督预训练

4. 有监督的微调

5. 编码实现

6. 以人为本 AGI

7. 参考文献

您可能也对以下帖子感兴趣